摘要 - 强化学习(RL)使代理商从与环境的互动期间收集的试验经验中学习。最近,离线RL已成为流行的RL范式,因为它可以节省与环境的交互。在离线RL中,数据提供商共享大型预计数据集,而其他人可以在不与环境互动的情况下训练高质量的代理。此范式在机器人控制,自动驾驶等关键任务中表现出了有效性。但是,对调查离线RL系统的安全威胁的关注更少。本文重点介绍了后门攻击,其中将一些扰动添加到数据(观察)中,以便给定正常观察,代理采取了高奖励动作,并且对注入触发器注入的观察结果进行了低奖励动作。在本文中,我们提出了B Affle(用于离线执行学习的后门攻击),这种方法通过毒化离线RL数据集自动植入后门来植入RL代理,并评估不同的离线RL算法对此攻击的反应。我们对四个任务和九个离线RL算法进行的实验表明了令人不安的事实:现有的脱机RL算法都不对这种后门攻击免疫。更具体地说,B Affle修改了10%的数据集(3个机器人控制和1个自主驾驶)。在中毒数据集中受过训练的代理在正常设置中表现良好。但是,当出现触发器时,代理的性能会大大降低63。2%,53。9%,64。7%和47。平均四个任务中的4%。在干净的数据集上微调中毒代理后,后门仍然持续。我们进一步表明,流行的防御方法也很难检测到插入后的后门。本文呼吁关注开放源离线RL数据集更有效的保护。
主要关键词